☰
12.5.3 확산 모델 기반 정책 (Diffusion Policies)과 오프라인 RL의 결합
Home
/
인공지능 (Artificial Intelligence, AI)
/
제목: Embodied AI & Modern Control
/
Chapter 12. 오프라인 강화학습 (Offline RL): 정적 데이터셋의 가치
/
12.5 패러다임의 확장: 시퀀스 모델링으로서의 RL (RL as Sequence Modeling)
/
12.5.3 확산 모델 기반 정책 (Diffusion Policies)과 오프라인 RL의 결합
12.5.3 확산 모델 기반 정책 (Diffusion Policies)과 오프라인 RL의 결합